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ABSTRAK 


Data Mining merupakan Penambangan data dari sekumpulan fakta yang terekam dan 
di ekstraksi menjadi pengetahuan, klasifikasi data mining diantaranya adalah dengan 
Algoritma C4.5, ID3, -Nearest Neighbor, Naive Bayesian Clasificatton, CART 
(Clasification And Regression Tree), Pohon Keputusan merupakan cara bagaimana 
mengklasifikasi Algoritma terhadap data mining dalam hal ini dengan 
pengklasifikasian yang tepat dapat menghasilkan Pohon Keputusan yang baik. 
Keyword : Data Mining, C4.5, Pohon Keputusan 


1. Pendahuluan 


Metode Estimasi merupakan salah satu metode yang ada dalam Data Mining. Ada 
hal yang perlu dipahami bahwasanya metode ini dapat bekerja apabila himpunan data 
sebagai sampel data yang akan di proses bersifat numerik dan memiliki label. 
Biasanya metode 1in1 tidak memiliki rumus yang pasti karena bersifat Regresi. 
Artinya dalam penentuan sebuah keputusan dari sebuah sampel baru berasal dari 


sebuah rumus yang terbentuk berdasarkan parameter-parameter himpunan data. 


Dalam metode estimasi terdapat beberapa algoritma yang dapat dijadikan sebagai 
Learning Algorithma diantaranya yaitu Regresi Linier. Klasifikasi merupakan 
sebuah proses training (pembelajaran) suatu fungsi tujuan (target) yang digunakan 
untuk memetakan tiap himpunan atribut suatu objek ke satu dari label kelas tertentu 
yang di definisikan sebelumnya. Teknik Klasifikasi ini cocok digunakan dialam 
mendeskripsikan data-set dengan tipe data dari Suatu himpunan data yaitu biner atau 
nominal. Adapun kekurangan dari teknik ini yaitu tidak tepat untuk himpunan data 
ordinal karena pendekatan-pendekatan yang digunakan secara implisit dalam 


kategori data. 


Ada beberapa teknik klasifikasi yang digunakan sebagai solusi pemecahan kasus 
diantaranya yaitu: 


- Algoritma C4.5 


- Algoritma K-Nearest Neighbor 

- ID3 

- Naive Bayesian Clasification 

- CART (Clasification And Regression Tree) 


Dan lain-lain 


Output atau keluaran dari metode klasifikasi ini biasanya dalam bentu “Decision 
Tree (pohon keputusan)”. Dalam pembahasan kali ini saya mencoba untuk 


membahas tentang Algoritma C4.5. 


2. Pembahasan 


2.1 Algoritma C4.5 


Algoritma C4.5 merupakan salah satu solusi pemecahan kasus yang sering 
digunakan dalam pemecahan masalah pada teknik klasifikasi. Keluaran dari 
algoritma C4.5 itu berupa sebuah decision tree layaknya teknik klasifikasi 
lam. Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan 
untuk membagi kumpulan data yang besar menjadi himpunan-himpunan 
record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. 
Dengan masing-masing rangkaian pembagian, anggota himpunan hasil 


menjadi mirip satu dengan yang lain (Berry & Linotf, 2004). 


Adapun penjelasan tentang Algoritma C4.5 itu sendiri yaitu Salah satu 
algoritma C4.5 induksi pohon keputusan yaitu ID3 (Iterative Dichotomiser 
3). input berupa sampel training, label training dan atribut. Algoritma C4.5 


merupakan pengembangan dari ID3. 


Jika suatu set data mempunyai beberapa pengamatan dengan missing value 
yaitu record dengan beberapa nilai variable tidak ada, jika jumlah 
pengamatan terbatas maka atribut dengan missing value dapat diganti 
dengan nilai rata-rata dari variable yang bersangkutan. (Santosa, 2007) 
Untuk penyelesaian kasus didalam Algoritma C4.5 ada beberapa elemen 
yang diketahui yaitu: 1. Entropy 2. Gain Entropy(S) merupakan jumlah bit 
yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas (- atau - 
) dari sejumlah data acak pada ruang sampel S. Entropy dapat dikatakan 


sebagai kebutuhan bit untuk menyatakan suatu kelas. semakin kecil nilai 


Entropy maka akan semakin Entropy digunakan dalam mengekstrak suatu 


kelas. 


Entropi digunakan untuk mengukur ketidakaslian S. Adapun rumus untuk 
mencari nilai 


Entropi. 


Entropy/S) 5 —pg log, pa — ps log,ps 


Dimana: 


S : ruang (data) sampel yang digunakan untuk pelatihan 
pe - Jumlah yang bersolusi positif atau mendukung pada data sampel untuk 
kriteria tertentu 
pe: jumlah yang bersolusi negatif atau tidak mendukung pada data sampel 
untuk kriteria tertentu. 
e Entropi(S) — 0, jika semua contoh pada S berada dalam kelas yang sama. 
e Entropi(S) —- 1, jika jumlah contoh positif dan negative dalam S adalah 
sama. 
e 05 Entropx(S) 5 1, jika jumlah contoh positif dan negative dalam S tidak 


Salma. 


Gain (S,A) merupakan Perolehan informasi dari atribut A relative terhadap 
output data S. Perolehan informasi didapat dari output data atau variabel 
dependent S yang dikelompokkan berdasarkan atribut A, dinotasikan dengan 


gain (S,A). Adapun rumus untuk mencari nilai Gain yaitu : 


Gain SA 5 EntropyWiS) — yi : Entropwsi) 
Dimana: 
e A: Atribut 
e S5: Sampel 
e n: Jumlah partisis himpunan atribut A 
e (Sil : Jumlah sampel pada pertisi ke —1 


e ISI: Jumlah sampel dalam S 


Adapun langkah-langkah untuk penyelesaian Algoritma C4.5 terlihat pada 


siklus di bawah ini : 














Algoritma Penyelesaian Algoritma C4.5 


2.2 Contoh Kasus dan Penyelesaian 


Masalah yang akan di analisis adalah untuk mengklasifikasikan calon 
pendaftar di suatu STMIK xxx dalam hal pemilihan program studi 
khususnya : Sistem Komputer Atau Sistem Informasi. Adapun data yang 
digunakan dalam membentuk pohon keputusan untuk menganalisis minat 
calon mahasiswa baru untuk mendaftar ke STMIK xxx berdasarkan program 
studi strata 1 adalah nama mahasiswa, minat calon mahasiswa, asal sekolah, 
jenis kelamin, hobi. Data selajutnya akan dilakukan pra-proses untuk 
menghasikan data kasus yang siap dibentuk untuk menjadi sebuah pohon 


keputusan. 


Data yang tidak lengkap disebabkan karena ada data yang kosong atau 
atribut yang salah. Demikian pula dengan data minat calon mahasiswa baru 
yang mendaftar ke STMIK xxx berdasarkan program studi strata 1, ada 
sebagian atribut yag tidak perlu sehingga proses Data Preprocessing perlu 


dilakukan sehingga data base sesuai dengan ketentuan yang diperlukan. 


Data Preprocessing merupakan hal yang penting dalam proses data mining, 


hal yang termasuk antara lain: 


1. Data Selection 


Data minat calon mahasiswa/i baru yang mendaftar ke STMIK xxx 
berdasarkan program studi strata 1 tersebut akan menjadi data kasus dalam 
proses operasional data mining. Dari data yang ada, kolom yang diambil 


sebagai atribut keputusan adalah hasil, sedangkan kolom yang diambil 


atribut penentuan dalam pembentukan pohon keputusan adalah: 


a. Nama Mahasiswa 

b. Minat calon mahasiswa 
c. Asal sekolah 

d. Jenis kelamin 


e. Hobi 


2. Data Preprocessing / Data Cleaning 


Data Cleaning diterapkan untuk menambahkan isi atribut yang hilang 


atau kosong dan merubah data yang tidak konsisten. 


3. Data Transformation 


Dalam proses ini, data ditransferkan ke dalam bentuk yang sesuai untuk 


proses data mining. 


4. Data Reduction 


Reduksi data dilakukan dengan menghilangkan atribut yang tidak 
diperlukan sehingga ukuran dari database menjadi kecil dan hanya 


menyertakan atribut yang diperlukan dalam proses data mining, karena 


akan lebih efisien terhadap data yang lebih kecil. 


Masalah klasifikasi berakhir dengan dihasilkan sebuah pengetahuan yang 
dipresentasikan dalam bentuk diagramyang biasa disebut pohon 


keputusan (decision tree). Data berikut ini dipergunakan untuk data 


latihan. Data selengkapnya tampak pada tabel dibawah ini: 


ama Maha Calon 
Pa 
| Movita Devi Batu 
Bana 


Ah rd Riyadi 
Pen Adriensyah 
Der OA Satria 
Per Apirah 

Desi munthee 


Kos sihak 
Permana Parut 


Po harmatad Rr Dum 
Fadi, 


dana 


Zulfikar Ali 


Putra Muttagimn 


De by Latifah 
Simatupang 
Deni Alberto 
Sihombing 


Seni Anta Or Ma "Ija) 
Tarigan 


| F 
Abdul Alim nan 


14 | Akbar Widiantara Sera 


SKA Kormputer 
SPA Kormbuter 


SIAK Korputer 


SAK TEKMik 





dl Se kilah laibi Hiasi 


Laki-Laki 


Laki-Laki 


rd 
Pd 
rd 


2 sx 
T | 8x 
SALA UPAUM Laki-Laki Ar SI 
SAK TEKMIK Perempuan lai si 
Mike Kendi 
" 
" 
Tr sk 


SMA URAT 


berasa BIKo 
Kama MK. 


SAK TEKMIK 


LAA URAUM 


LAA ULAMA 


LMLA UAN 





Pam 
I 
Tan 
I 
I 
jaga 
I 
I 
I 


AA UPRAUN Laki-Laki 


Tabel Sampel yang digunakan 


Keterangan : 


Untuk Asal Sekolah yang disebut SMK Komputer yaitu yang berasal dari 
jurusan Teknik Komputer Dan Jaringan, Multimedia, dan Rekayasa 
perangkat lunak sedangkan yang dikatakan sekolah umum yaitu Sekolah 
Menengah Atas yang terdiri dari jurusan IPA maupun IPS dan yang 
dimaksud SMK Teknik adalah yang berasal dari jurusan baik Teknik 
Elektro, Teknik Mesin, Teknik Listrik dan Lain-lain. SI merupakan Nilai 
Atribut Hasil Sistem Informasi dan SK merupakan Nilai Atribut Hasil 


Sistem Komputer. 


Setelah kita memperoleh data Minat Calon Mahasiswa/i Baru yang tercantum 


pada Tabel Sampel. Langkah selanjutnya adalah menentukan nilai Entropy 


dan Gainnya: 


1. Nilai Entropy 


da. 


Entropy Total-Entropy(S) — X'-, — pixslog)» pi 
Entropy Total-((-4/14"log 2 (414) 4 (-10/14"log 2 (10/14)) 
— 0.863120569 


Entropy Minat Calon Mahasiswa 


- Nilai atribut “Hardware” — ((-3/5)“Log 2(3/5)H(-2/5)“log 2 (2/5) 


—0).970950594 


- Nilai atribut “Software” — ((-1/5)“Log 2(1/5)H-4/5)“1log 2 (4/5) 


— 0./21928095 


- Nilai atribut “Umum” — ((-0/4)/“Log 2(0/4)-H-- 4/4)"log 2 (4/4) 


—0 
Entropy Histori Pendidikan (Asal Sekolah) 
- Nilai atribut “SMK Komputer” 
— ((-2/4)“Log 2/2/4)H-2/4)"log 2 (2/4) 51 
- Nilai atribut “SMK Teknik” 
— ((-0/4)“Log 2(0/4)--(- 4/4)“1og 2 (4/4) 50 
- Nilai atribut “SMA Umum” 
—( (-2/6)/“Log 2(2/6)H-(- 4/6)“log 2 (4/6) — 0.918295834 
Entropy Hobi 
- Nilai atribut “IT” 
— ((-4/6)“Log 2(4/6)-(- 2/6)“log 2 (2/6) — 0.918295834 
- Nilai atribut “Non IT” 
— ((-2/8)/“Log 2(2/8)(-6/8S)“log 2 (6/8) — 0.811278124 
Entropy Jenis Kelamin 
- Nila atribut “1” — (-4/7”“Log 24/1)H- 3/7)”“log 2 (3/7) 
— 0.985228136 
-  Nilar atribut “0” — ((-0/7)“Log 20/1)-(-117)”“log 2 (7/1) 


—0 
2. Nilai Gain 
Berikut ini adalah nilai Gain dari setiap kriteria. 
- Nilai Gain Minat Calon Mahasiswa 
— 0.863120569-((5/14)“ 0.970950594))-H (5/14) 
0.721928095))-((4/14)"0))) 
— 0).258521037 
- Nilai Gain Histori Pendidikan 
— 0.863120569-((4/14)#1))7-(4/147#0))-H (6/14) 0.918295834))) 
— 0.183850925 
- Nilai Gain Hobi 
— 0.863120569-((6/14)# 0.918295834))--((8/14)"0)) 
— 0.005977711 
- Nilai Gain Jenis Kelamin 
— 0.863120569-—((7/14j)# 0.985228136))/-(7/14)"0)) 
— 0.005977711 
Setelah di dapatkan nilai Entropy dan Gain dari sampel data yang dimiliki, 


berikut ini adalah rekapitulasi perhitungan nilai Entropy dan Gainnya. 


NODE Keterangan Imi Sistem Sistem Entropy 


Kasus Komputer Informasi 





Minat 
Calon 
Asal 
Sekolah 
Jenis 
Kelamin 
ma 


Rekapitulasi Hasil 


Tabel di atas menunjukkan bahwasanya kriteria Jenis Kelamin memiliki nilai 
Gain yang paling tinggi. Untuk fase selanjutnya adalah pembentukan Tree 
(pohon keputusannya). Berikut ini adalah Tree dari rekapitulasi nilai Entropy 


dan Gainnya : 


Sistem Informasi 








Node 
Pohon keputusan di atas belum terlihat keputusan yang dominan dari setiap 
program studi yang di pilih. Maka kita harus mencari kembali nilai Entropy 
dan Gain dari setiap atribut(kritera) Jenis Kelamin —- Laki-laki. 1. Nilai 
Entropy Berikut ini adalah tabel penyelesainnya. Tabel: Sampel Data Yang 
Di Uji Ulang (Kriteria Jenis Kelamin) 


Jenis 
Kelamin 





Setelah itu kita hitung nilai Entropy dari atribut Jenis Kelamin —- Laki-Laki 


yang memiliki jumlah kasus “7” seperti terlihat pada Tabel di bawah ini. 


Laki-Laki 


Laki-Laki 
Lema 2 


Gaf «wi Satri | Software | Laki-Laki | — Non 
Zulfikar Ali bacok Mn ai 


— Sofware | SMKUMUM | Wakaki | To SK 





Langkah selanjutnya adalah menghitung nilainya, Tabel berikutnya 


menunjukkan hasil Rekapitulasi nilai Entropi dan Gainnya. 





Berdasarkan tabel di atas terlihat bahwasanya Attribut - Minat Calon 
memiliki nilai Gain Tertinggi, maka untuk Root selanjutnya pada pohon 


keputusannya dapat terlihat pada gambar pohon (tree) berikut ini : 
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Tn 


Pohon Keputusan 


Karena pohon keputusan belum terlihat keseluruhan hasilnya sehingga kita 
perlu untuk mencari kembali Nilai Gain dan Entropy selanjutnya berikut ini 
adalah tabelnya. 


Jumlah 


Kriteria Artribut KASUS SK Sl 





Mwaaan Sofware | 2 11 


Setelah itu kita data terlebih dahulu dari atribut Minat Calon — Software yang 


memiliki jumlah kasus “2” seperti terlihat pada Tabel di bawah ini. 
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No. Nama Mahasiswa Minat Asal Hobi 


Calon Sekolah 


Gafar Dwi Satrio 


Akbar Widiantara 





Selanjutnya adalah kita menghitung kembali nilai Entropy dan Gainnya 
seperti terlihat pada tabel di bawah 1in1: 


Keterangan Jml Sistem Sistem  Entropy Gain 
Kasu Komp Inform 
5 (S5) asi (Sl) 


Kelamin - 
Laki-laki 
Dan 
Minat 
Calon: 





Gambar di atas menjelaskan bahwasanya yang memiliki kriteria memiliki 
nilai Gain tertinggi yaitu : 1 maka node pohon keputusannya adalah sebagai 


berikut: 





Hasil dari Pohon Keputusan 
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3. Penutup 
3.1 Kesimpulan 

Maka basis pengetahuan atau rule yang terbentuk yaitu : 

1. Jika Jenis Kelamin —- Perempuan maka Hasil — Sistem Informasi 

2. Jika Jenis Kelamin —- Laki-laki dan Minat Calon —- Hardware maka 
Hasil — Sistem Komputer 

3. Jika Jenis Kelamin — Laki-laki dan Minat Calon—Umum maka Hasil 
— Sistem Informasi 

4. Jika Jenis Kelamin — Laki-laki dan Minat Calon— Software dan Hobi 
— IT maka Hasil — Sistem Komputer 

5. Jika Jenis Kelamin —- Laki-laki dan Minat Calon- Software dan 
Hobi—Non IT maka Hasil — Sistem Informasi 

Dari data diatas maka penulis menarik kesimpulan bahwa hasil yang 

didapat adalah peminat untuk Bidang Sistem Komputer lebih banyak 


dibanding dengan Bidang Sistem Informasi. 


3.2 Saran 
Adapun saran-saran yang disampaikan berdasarkan hasil pengamatan dan 
analisa selama melakukan penelitian adalah: 1. Penelitian selanjutnya 
sebaiknya menggunakan data yang lebih banyak agar menghasilkan rules 
yang lebih akurat. 2. Penelitian selanjutnya sebaiknya menggunakan 


atribut yang lebih banyak agar menghasilkan data yang lebih akurat. 
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